跳到主要内容

案例7.3 视频教程

7.3.mp4 (24.39MB) 题目:试编程实现拉普拉斯修正的朴素贝叶斯分类器,并以西瓜数据集3.0位训练集,对p151“测1”样本进行判别。 image.png 步骤1:在“项目模板”中找到周志华习题,打开第七章贝叶斯分类器习题案例7.3,创建模板。
步骤2:在“CSV上传”模块上传CSV文件,这里用到的是西瓜数据集3.0。
步骤3:在全部组件列表搜索“序数编码”模块,拖到操作界面内,在字段设置的“目标字段”中输入“色泽,根蒂,敲声,纹理,脐部,触感,好瓜”特征字段。该模块主要用来将分类特征编码为整数数组。该模块的输入应为整数或者字符串的数组,表示分类特征采用的值。目的是找到每个特征的唯一值,然后将数据转换为叙述编码。
步骤4:拉普拉斯修正实质上假设了属性值与类别均匀分布,这是在朴素贝叶斯学习过程中额外引入的关于数据的先验。拉普拉斯修正可以避免因训练集样本不充分而导致概率估值为0的问题。在全部组件中搜索贝叶斯分类器,选择一个朴素贝叶斯分类器,如多项式朴素贝叶斯分类器,也适用于具有离散特征的分类。参数设置无需修改,特征字段为“色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率”。标识字段为“好瓜”。
步骤5:在全部组件列表中选择“CSV上传”组件,上传P151中的测1样本。即使样本数量较少,也不会导致概率估计为0.步骤6:在全部组件列表中选择“模型预测”组件,测1样本作为测试集,经过贝叶斯分类器学习的西瓜数据集作为训练集,这两个数据集作为输入,就可以对测1样本进行判别。也可以通过书上的公式去计算。